Conjunto de datos
Los datos fueron recolectados a través de un proceso de raspado (webscraping) siguiendo una primera versión de una clasificación taxonómica que tratara de extraer los tweets más relevantes para el análisis.
Las variables que se tuvieron en cuenta fueron: el identificador único del tweet (id), el momento en que fue creado (Created_At) y su contenido (Text); de modo que el nombre de las cuentas fueron descartados:
| ID | Created_At | Text |
|---|---|---|
| 220208944646332416 | 2012-07-03T17:34:38 | Lo de la chica baleada en Isidro Casanova..que lamentablemente perdio su embarazo..tambien dicen ahora que es ajuste de cuentas?? |
| 190155839590498304 | 2012-04-11T19:14:19 | Ajuste en sanidad II. No se aplicarán técnicas de reproducción asistida salvo que el embarazo no sea posible de forma natural, poco ahorro. |
| 17963422655 | 2010-07-07T16:57:04 | “La palabra clave para lograr el adecuado ajuste al embarazo es: APOYO… Familiar, pareja y del sistema de salud” Lcda. Lecuna. Curso CANIA |
| 608011196185366529 | 2015-06-08T20:42:20 | “las mujeres se embarazan para cobrar la AUH”Pero el embarazo en mujeres menores de 20 años se mantiene desde 2007 en 15,6. Ajuste es #PRO |
| 592815489686118401 | 2015-04-27T22:20:01 | Kit de Ajuste: 2 extensores + 1 banda de algodón, para usar la ropa pre-embarazo en los primeros meses de embarazo. pic.twitter.com/82FEIqxF9P |
| 592706483793559554 | 2015-04-27T15:06:52 | Aun estando embarazada puedes recibir un ajuste de columna, en la etapa de embarazo es necesario un ajuste vertebral, Higiene es Salud! |
\(~\)
A continuación se muestra el intervalo de tiempo del conjunto de datos, ¡un total de 41.879 tweets para casi 13 años!
Como se observa, hay un pico de tweets por minuto interesante el día 20 de marzo de 2015 cerca de las 10pm. Estos son algunos de los tweets que se publicaron alrededor de esa hora:
## [1] "????? El pap no es la ver infecciones Vaginales .... solo virus del papiloma... los malos olores son por bacterias y hongos ( candidiasis Vaginal y vaginosis bacteriana) tienes razón en la parte de que las duchas alteran el PH y favorecen la infección con bacterias y hongos."
## [2] "El virus del papiloma humano (VPH) es la infección de transmisión sexual más frecuente"
## [3] "La causa de la condición es un defecto en el sistema inmunitario que aumenta la susceptibilidad al HPV, o virus del papiloma humano. Esta malformación genética provoca infección crónica por el virus, lesiones cutáneas y aumento del riesgo de desarrollar cáncer de piel."
## [4] "La causa de la condición es un defecto en el sistema inmunitario que aumenta la susceptibilidad al HPV, o virus del papiloma humano. Esta malformación genética provoca infección crónica por el virus, lesiones cutáneas y aumento del riesgo de desarrollar cáncer de piel."
## [5] "El virus del papiloma humano (VPH) es la infección de transmisión sexual más frecuente"
## [6] "El virus del papiloma humano (VPH) es la infección sexualmente transmitida más común que existe. \n\nExisten más de 200 tipos de VPH. Alrededor de 40 tipos pueden infectar tu área genital… https://www.instagram.com/p/Bs7C9VRArQs/?utm_source=ig_twitter_share&igshid=1g4z0qiv5b07u …"
Frecuencias de palabras
Una forma intuitiva de analizar datos en formato de texto, es a través de la visualización de las palabras más populares:
Adicional al gráfico de barras anterior, las nubes de palabras son otro tipo de visualización para este tipo de datos. Sin embargo, en este análisis hay una gran desproporción entre las palabras más populares, evidenciado por la forma del gráfico:
Este caso es un ejemplo de que tal vez las palabras que más aparecen no sean las que poseen más importancia para el significado del texto. Un modo de abordar este problema es con la ponderación de las palabras con un método conocido como TF-IDF, que castiga aquellas palabras que aparecen en demacía pero no en proporción a la totalidad de documentos, en este caso Tweets. El método consiste en multiplicar la frecuencia de la palabra por la frecuencia inversa de la palabra con respecto a la totalidad de documentos en la que aparece, de esta manera se encuentran palabras que son relevantes para el tópico.
Luego de realizar la ponderación la nueva jerarquía es la siguiente:
Como se observa la palabra “mes” aparece en primer lugar, en vez de embarazo.
Se realizó el mismo procedimiento para la nube de palabras, y es evidente a primera vista que las palabras se visualizan de mejor manera:
Por último lugar de esta sección, visualizamos la aparición a lo largo del tiempo de la palabra ‘embarazo’ en todos los tweets:
Geografía
El conjunto de datos no posee la referencia geográfica de cada tweet, pero lo que se puede hacer es extraer las menciones de los diferentes municipios de Colombia, como lo muestra el siguiente mapa:
Análisis de redes
El análisis de redes es un conjunto de técnicas integradas que permiten extraer las relaciones entre diferentes actores y analizar las estructuras sociales que emergen de sus interacciones.
En primer lugar se deben extraer las palabras que más se utilizan de forma conjunta, o más conocidas como n-gramas. Para esta sección se construyeron las redes a partir del procedimiento más común, tomando los bi-gramas:
## # A tibble: 6 x 3
## word1 word2 weight
## <chr> <chr> <int>
## 1 mes embarazo 8761
## 2 embarazo deseado 5391
## 3 embarazo planeado 4521
## 4 prevencion embarazo 1899
## 5 embarazo mes 1282
## 6 hormonal embarazo 812
A cada par de palabras se le asignó un peso, que se verá reflejado en la red por la cercanía con otros conjuntos de palabras, como en el siguiente gráfico:
Pero este gráfico puede visualizar mucha más información, y para ello se construyó una versión interactiva:
Una variación de esta red se construyó utilziando ‘skip-grams’ en lugar de bi-gramas. Esta aproximación intenta solventar el problema en donde las palabras que están una al lado de otra tal vez no nos cuentan la historia completa, de modo que los ski-grams intentan ubicar las combinaciones de palabras que sí le dan significado al texto:
Detección de comunidades
Este procedimiento consiste en identificar grupos de nodos de una red que interactúan entre sí, evidenciando grupos de palabras que tocan temas en común:
Como se observa con la codificación de colores, hay grupos de palabras que pertenecen a un mismo grupo de tweets, y que en consecuencia, pertenecen a diferentes personas que hablan sobre un mismo tema.Estas son las palabras que aparecen en cada grupo o cluster:
## [1] "hice, termine, notas, secundario, cargo, excelentes, hijo, corta, estudiar, casa, lpmyo, hija, maridoahora, asignacion, cargopia"
## [2] "embarazada, segui, arta, tema, abortoquede, quedar, mujer, quedo, amor, quedarte, quede, quedarse, queda, debo, luz"
## [3] "tenian, terapia, asimilar, novio, silvia, toman, navarro, iftttxniqw"
## [4] "transmision, educacion, enfermedades, infecciones, sexual"
## [5] "hormonal, madre, desequilibrio, autismo, cambio, estudio, relaciona, ansiedad, depresion, tratamiento, revolucion, relacionan, desorden"
## [6] "regular, ninos, afectar, capacidad, ejercicio, forma, consumo, practica, conductas, fisico"
## [7] "metodo, aborto, ningun, legal, algun, seguro, eficaz, efectivo, espontaneo"
## [8] "duracion, variar, larga"
## [9] "mes, embarazo, prevencion, evitar, meses, prevenir, sexto, tercer, interrupcion, quinto, septimo, octavo, cuarto, prueba, planeado"
## [10] "acido, folico"
## [11] "hormona, kgs, sepas, cura, sobrepeso, bajas, hcg"
## [12] "eco, importante, realices"
## [13] "kourtney, kardashian"
## [14] "puedes, tranquilo, puta"
## [15] "bebe, sexo, test, evita, tomar, alcohol, toma, lactancia, tambien, dispositivo, desarrollo, crecimiento, allen, pierde, diferencia"
## [16] "cuidarte, facil"
## [17] "control, recomienda, tendras, bebelucomve"
Análisis de correlaciones
Este es un método estadístico que tiene el propósito de evaluar la fuerza de la relación entre varias variables, en este caso, se seleccionan palabras y se detectan aquellas con las que se suelen emparejar:
Conclusiones
Este reporte condensa un análisis exploratorio sobre los tweets relacionados con embarazo adolescente, el cual resume casi 13 años de texto. Teniendo esto se pueden plantear diferentes hipótesis sobre los datos presentados y por ende realizar mayores análisis.